发布|2022隐私计算十大观察
为推动隐私计算产业进一步发展,由中国通信标准化协会指导,中国信息通信研究院(以下简称“中国信通院”)、隐私计算联盟主办的2022隐私计算大会于7月13日在北京召开。
在大会主论坛上,中国信通院云计算与大数据研究所所长何宝宏发布了2022隐私计算十大观察。
以下为演讲实录
大家好,我是中国信通院何宝宏。下面由我为大家发布我们云大所和隐私计算联盟这一年来对隐私计算行业发展的思考和观察。观察覆盖政策、技术、产业、应用、合规性等内容,共10条。
观点一:数据产权分置,隐私计算迎来发展机遇
作为平衡数据流通与安全的重要工具,近几年,工业和信息化部、人民银行、国家发改委、中央网信办等部门政策文件中均提到要推进隐私计算相关技术的研究攻关和部署应用,使得技术的关注度日渐提升;近期,随着中央全面深化改革委员会第二十六次会议上审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制、建立合规高效的数据要素流通和交易制度等举措,为实现原始数据不出域、数据可用不可见的隐私计算提供了更加明确的落地指引。
观点二:技术体系扩展,隐私计算概念外延深化
早在2016年,李凤华教授等人提出隐私计算是面向隐私信息全生命周期保护的计算理论和方法。后来我们在数据流通场景中对其概念进行延伸,将隐私计算的概念定义为不泄露原始数据前提下,保障数据在流通与融合过程中的“可用不可见”的一系列技术,以多方安全计算、联邦学习和可信执行环境三大方法为代表。而今,随着隐私保护的需求越来越重视,隐私计算也称隐私增强计算、隐私保护计算,其范畴逐渐扩大。例如,今年美国发布的法案中定义其为减轻数据处理所产生的个人隐私风险的任何软硬件技术。因此,我们认为广义的隐私计算是涵盖隐私信息全生命周期过程的所有计算操作,包括任何实现隐私保护前提下数据安全流通共享的技术。除多方安全计算、联邦学习、可信执行环境这传统三大方法外,还包括数据限制发布的技术、数据失真的技术和一些辅助技术。未来,可能还会随着技术的发展,将包括一些新的技术内容,技术外延将进一步扩展。
观点三:技术路线融合,优势互补突破应用瓶颈
隐私计算的三大主流路线各自有着其独特的优势与不足,这些不足阻碍了隐私计算的落地应用。
a. 基于多方安全计算(MPC)的隐私计算具有较高的安全性,能够做到可证明安全,但是因为协议本身需要大量的额外通信与计算,导致其计算效率差,高安全假设的方案难以在现实场景中被使用;
b. 基于联邦学习(FL)的隐私计算针对多方联合机器学习有着较好的适配性,相比MPC方式,其能够在更为合理的性能范围之内完成联合机器学习任务。然而,联邦学习的安全性参差不齐,安全基准设置困难,安全性较难评估,加重了用户对联邦学习的安全困扰;
c. 基于可信执行环境(TEE)的隐私计算结合了密码技术与可信硬件,能够在不过多损失性能的前提下,通过可信认证、一致性核验、密文传输、计算隔绝等一系列手段保护来保护数据隐私。但是,基于TEE的方式多需要将数据集中处理,若攻击者通过如侧信道攻击等方式破环了可信硬件的安全性,可能会导致明文数据泄露。
根据对市场各厂商、产品的调研,我们发现隐私计算的技术融合已经成为了一大趋势。在一些场景下,技术融合往往能够产生1+1>2的效果,为解决隐私计算的各类技术瓶颈提供了新思路。
将MPC与FL融合,以实现更加安全的联邦学习聚合算法,如通过秘密分享或全同态加密等方式在密态的环境下完成模型参数聚合;
将TEE与FL融合,借助TEE的可信性和隔绝性实现模型参数的安全汇聚,增强FL的安全性;
将MPC与TEE融合,通过MPC将明文态的数据转为密态后放入TEE进行计算,防止因TEE被破坏而泄露数据隐私;借助TEE的隔绝性、保密性、一致性等能力,将跨网的MPC计算节点安全的放置在同一网络内,解决MPC普遍存在的通信瓶颈问题,提高性能。
观点四:平衡安全性能,安全分级灵活适应场景
一般来说,隐私计算的安全与性能两者相互制约。安全假设较弱时,其性能普遍较强;反之,安全假设较强时,其性能普遍较弱。高安全假设的方案会极大增加额外通信和计算负担,造成性能不具备实用性。
根据中国信通院“可信隐私计算”性能专项评测以及对一些相关论文的结果分析,我们在图中举例列出了三类安全假设下的平均性能情况。在参与方半诚实且不存在合谋风险的情况下,针对联合机器学习任务,计算耗时能够达到明文的50-200倍;在满足半诚实模型假设并且部分满足恶意模型,存在少数不诚实方的前提下,计算耗时提升到了约为明文计算的100倍以上;在最严格的不诚实大多数恶意模型假设下,计算耗时更是增长到了约为明文计算的近千倍以上。因此,在实际的业务场景中,很多情况并不需要考虑如恶意参与方或合谋攻击的问题,盲目的选择高安全方案也是不可取的。应根据实际需求选择适合的安全等级,实现安全与性能的动态平衡,避免唯安全论/唯性能论。
观点五:支撑产品落地,技术可用性有一定提升
隐私计算已经从去年的场景验证阶段迈入今年的场景落地应用阶段,除了安全性,隐私计算的可用性也受到各方的极大关注。可用性是应用场景能够规模落地的主要抓手。可用性主要包括计算性能、系统稳定性、产品易用性和场景支持能力。
性能方面,通过算法优化、并行计算或加速卡、一体机来加速计算效率。当下,性能已经可以支持亿级数据的计算,高并发XGB算法建模效率相比之前可提高至少50%;此外,市面上已经不少家厂商推出了一体机产品,计算效率可提升数十到数百位。
稳定性方面,主备、多活和自动容灾恢复的能力在产品应用中也有显现,比如本批次测试中MPC产品稳定性用例的通过比率已由去年的10%提高到40%。
易用性和场景支持能力方面,通过拖拉拽、驾驶舱等交互界面的可视化,降低了用户学习成本;我们也观察到约9成以上的产品具备可视化操作和容器化部署等易用性能力。同时,今年以来,金融、政务、医疗场景案例有明显提升。对金融的实时性业务场景、海量数据高并发场景的支持能力也有显著的提升。
观点六:软件硬件协同,一体机成为产品新形态
当下,利用硬件特性增强软件方案,实现隐私计算性能和安全性的同时提升是主流的方法。一是隐私计算一体机作为软硬结合一体的专用设备,其安全加固、性能加速和易用性增强的三大优势,使得隐私计算一体机从众多工程优化方案中脱颖而出,降低用户使用技术门槛和综合成本。二是基于硬件的实现方式并不唯一,各家产品百花齐放。可基于可信硬件或硬件密码模块,也可利用计算加速卡,同时还可以预装应用服务场景组件,组合方案多样化,多硬件多角度组合提升成为软硬结合的发展趋势,根据不完全统计也可看出,加速卡因其容易实现,因此在目前的软硬结合方案中占比较大。三是一体机等软硬结合的方案在金融政务医疗等场景崭露头角,且因为产品形态多样,标准化需求迫切,国内外已有多个标准带头规范技术研发和应用。最后,并非仅有隐私计算一体机可以突破应用瓶颈,扩大应用规模,软硬结合的多种落地方案仍需进一步探索,加快场景落地。
观点七:应用落地加速,内外双向赋能数据流通
行业应用方面,我们根据2019-2022年政府公开招标项目整理,发现隐私计算在金融、通信、政务、医疗等行业的应用比较多。在整理的招标项目中,来自金融行业的项目占比最高,达到55%,主要包含银行、证券、保险、金融科技公司等;其他是通信行业占比17%,主要是运营商;政务行业占比13%,主要来自政府机构、政府部门、事业单位等;医疗行业占比8%,主要来自医院、研究机构等。不同行业建设部署目的分布不同。我们用对内赋能、对外赋能、双向赋能这三个概念进行区分。对内赋能是指招标方通过隐私计算平台引入外部数据或能力提升内部业务效果,也就是通常说的“买入数据”;对外赋能是指招标方通过隐私计算平台对外输出数据或能力,也就是通常说的“卖出数据”;而双向赋能则是同时进行。我们发现,不同行业的赋能方向差异很大。比如,金融行业55%的项目目的为对内赋能,主要为联合通信、互联网、其他金融机构等数据资源提升自身风控、营销水平。而反过来,互联网、通信、医疗、能源行业对外赋能占比均超50%,以数据运营、数据服务方式对外输出自身的数据价值。政务行业双向赋能占比较高,一是通过政务数据内部共享,实现政务数据整合和协同共享;二是通过政务数据对外开放、数据运营对外赋能,如打通银政企信息孤岛促进普惠金融,如通信数据提升反欺诈效果。
观点八:各方积极探索,合规路径亟需形成共识
合规性方面,我们认为隐私计算的合规性这两年来大家积极探索,但路径的共识还需要进一步形成。在我国现行的法律框架内,匿名化和授权同意是数据处理最主要的两条合规路径。而隐私计算合规性的关键争议就在于隐私计算技术的数据处理效果是否可以满足法律上“不可复原、不可识别”的匿名化要求。
一方面,如果认为隐私计算完全满足匿名化要求,则无需经过授权同意,但现有法律中的“匿名化”要求被认为在绝大多数应用场景中都无法达到,监管层面还没有可解释的具体规则,这类观点很难被接受,
另一方面,如果认为隐私计算仅能满足去标识化要求,达不到匿名化的标准,那么数据处理的对象仍然是个人数据,仍然需要数据处理全流程的授权同意,这必然会降低隐私计算技术应用的吸引力,
因此,为了兼顾合规要求和应用效率,业界开始探索隐私计算的创新合规路径,即认为隐私计算可以在一定程度上满足匿名化要求,但仍需结合不同场景对关键事项获取授权同意。这就需要对隐私计算的各个技术环节进行拆解,明确需要关注的风险点和合规最佳实践,建立技术上的匿名化规则,同时也要尝试去探索在各个场景下对个人信息主体造成权益侵害的环节和事项,对这些事项进行详细告知,从而在权益保护和技术发展之间寻求平衡。当然,这种实践的思路还处于一个初期设想阶段,仍然需要技术和法律界同仁的共同努力,从而为隐私计算等技术的合规发展提供更为清晰的指引。
观点九:激发技术创新,隐私计算积极拥抱开源
再说说开源。开源作为激发技术创新和建立技术生态的主要手段,在大数据时代已演变得越来越成熟,许多基础设施软件都是由开源而来。隐私计算作为数据流通的基础设施同样也是如此,除了开源的通用优势外,由于数据全流程的安全性非常重要,将代码开放会让安全性变得更加易于验证;开源社区内的交流和反馈也会激发技术创新,创造满足不同场景需求的多种技术方案。此外,当前隐私计算大部分企业技术方案迥异,导致难以互通,应用方通常需要部署多种产品,而隐私计算的开源会让用户更易达成共识,也有利于隐私计算的互联互通。
当前隐私计算开源项目大致可分为协议框架开源和产品开源,协议框架开源大部分是针对于某一技术,如MPC领域的mp-spdz、OpenCheetah等,专注于的安全与性能提升。另外也有对产品平台的开源,更易形成生态。总体来讲,优秀的底层开源协议可以嵌入到平台中被广泛应用,而隐私计算的产品开源项目大部分仍处于初期,仅代码开放但社区建设不完备。
下图是国内外主要的开源平台或协议框架,可以看出近三年越来越多的企业加入隐私计算开源队伍,有包括底层技术协议,也有企业的平台类项目,其主要特点包括易用性,方便流程简易部署方便,用户能快速上手;可扩展性,指产品架构可分为底层算法协议、算子层和应用层等,各层之间可独立开发,并支持模块化;完备性是指能支持包括联合统计、隐私集合求交、建模等多种功能,每种功能也有满足不同性能与安全要求的算法;最后兼容性是能为未来互联互通作准备,架构设计上能兼容其他框架。我们对于未来隐私计算的开源技术和商业模式充满信心。
观点十:共识继续强化,互联互通加速落地实践
最后是关于互联互通的观察。随着隐私计算应用的逐渐铺开,互联互通的需求共识也进一步增强。我们应该认识到互联互通既是降低隐私计算部署和应用成本的现实需求,又能够促进技术产品接口和服务的标准化,为打造数据流通基础设施夯实基础。
此前一年多的实践,大家主要围绕互联互通的概念、内涵和标准框架进行讨论和探索,从标准体系层,包括中国信通院云大所牵头的隐私计算联盟、大数据技术标准推进委员会(TC601)、全国信息安全标准化技术委员会(TC260)、北京金融科技产业联盟、IEEE等在内的标准化组织和研究机构都在推进相关技术标准的研讨和编写;去年7月发布的《隐私计算 跨平台互联互通 第1部分:总体框架》也得到了众多专家的认可。
但是,我们也认识到仅靠标准层面的、原则性的框架要求很难指导实践落地,具体如何实现互联互通,各个技术提供方和应用需求方的观望多于行动,大家都呼唤可以看到具有标杆性、影响力的可落地、可复制、可验证的实践案例来提供参考;今年初公开的招商银行连同4家技术厂商实现的互联互通相对此前已在具体应用层面取得了新的进展,但同很多此前公开宣传的案例一样,可验证、可落地、可复制性等仍然不足,因此,更加成熟的、示范性案例将是接下来促进互联互通实践落地的关键。
好,以上就是我们这一年度对于隐私计算行业的发展观察。在此,感谢联盟成员对我们一贯的支持和认可。下半年,我们将会发布《隐私计算白皮书(2022年)》,里面将有更多更详实的数据和统计结果,敬请大家期待。谢谢!
往期推荐010203